Ampliación automática de corpus mediante la colaboración de varios etiquetadores
نویسندگان
چکیده
The availability of extense tagged data corpus is an essential aspect in many NLP tasks. The effort required for tagging manually this large number of phrases has encouraged many researchers like us to create automatic applications for this issue. Our approach represents a completely automatic method (optionally applying a minimum effort) for enlarging an already existing corpus, so it acquires the desired number of tagged phrases. The extra content of the corpus will be obtained from any knowledge source like the web, from where we extract untagged sentences to be analyzed. Considering the initial small corpus as the seed, our method makes it evolve until it reaches the goal size. The process is based on several taggers using the co-training technique, achieving the results after a number of iterations and applying the stacking scheme for deciding which new tagged sentences must be incorporated to the new corpus.
منابع مشابه
Construcción de los WordNets 3.0 para castellano y catalán mediante traducción automática de corpus anotados semánticamente
Este art́ıculo describe una metodoloǵıa de construcción de WordNets que se basa en la traducción automática de un corpus en inglés desambiguado por sentidos. El corpus que utilizamos está formado por las propias glosas de WN 3.0 etiquetadas semánticamente y por el corpus Semcor. Los resultados de precisión son comparables a los obtenidos mediante métodos basados en diccionarios bilingües para la...
متن کاملExtracción automática de contextos definitorios en textos especializados
Uno de los problemas recurrentes de cualquier área de conocimiento es la organización y explicación de los términos que incluye en su campo de estudio. El reciente avance en el desarrollo de nuevas tecnologías para el trabajo terminológico ha aportado diversas herramientas para tratar de resolver este problema. Una de estas herramientas son los corpus de textos especializados en los cuales se p...
متن کاملExperimentacion en Programacion Genetica Multinivel
La programación genética (PG) es una técnica de aprendizaje automático que se basa en la evolución de programas de ordenador mediante un algoritmo genético. Una versión avanzada de la PG intenta aprovechar las regularidades de los dominios a resolver aprendiendo simultáneamente subrutinas que codifiquen dichas regularidades. Dicha versión, denominada ADF (definición automática de funciones) per...
متن کاملIdentificación automática del canal de aprendizaje en mensajes cortos
Resumen. En el presente trabajo se proponen varios modelos de clasificación para detectar el tipo de aprendizaje de un individuo a partir de los tweet que escribe. Este modelo se apoya en los tres tipos de canal de aprendizaje propuesto en la programación neurolingüística (visual, auditivo y kinestésico). 4 expertos desarrollaron un corpus de entrenamiento, clasificando de manera manual a 1000 ...
متن کاملGeneración automática de resümenes personalizados
Resumen. En la actualidad los servicios de información presentes en la Web y en particular los periódicos digitales ofrecen a los usuarios una selección de documentos basada en criterios bastante simples que lleva a los usuarios a recibir una gran cantidad de información irrelevante. Nuestro trabajo pretende disminuir la sobrecarga de los usuarios de dos maneras: aportando un modelo de usuario ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 37 شماره
صفحات -
تاریخ انتشار 2006